XBOX Ally BannerMas Alla Banner
NVIDIA bajo la lupa por el entrenamiento de su IA: una demanda señala contactos con Anna’s Archive y el uso de libros pirateados

NVIDIA bajo la lupa por el entrenamiento de su IA: una demanda señala contactos con Anna’s Archive y el uso de libros pirateados

por Manuel Naranjo

La pelea legal por los datos con los que se entrena la IA suma un nuevo capítulo. Una demanda colectiva de autores en Estados Unidos incluye ahora una acusación muy concreta: NVIDIA habría contactado con Anna’s Archive para negociar acceso rápido a una gran colección de libros y documentos, con vistas a usarlos en el preentrenamiento de modelos de lenguaje.

El matiz es clave. No es un reconocimiento público de NVIDIA, sino alegaciones basadas en correos y documentos citados en una demanda enmendada. Aun así, la historia cambia de tono: ya no se habla solo de si un dataset incluía obras protegidas, sino de la posibilidad de una búsqueda deliberada de texto a gran escala en una fuente asociada a copias no autorizadas.

Qué se alega exactamente

Según el escrito presentado ante el Tribunal de Distrito del Norte de California, un miembro del equipo de estrategia de datos de NVIDIA habría escrito a Anna’s Archive para preguntar qué implicaría disponer de acceso de alta velocidad a su colección. La demanda afirma que la idea era incluir ese material en datos de preentrenamiento.

En el relato aparecen tres piezas clave. La primera, que Anna’s Archive habría advertido de que el contenido era de origen ilegal. La segunda, que se mencionan cifras enormes: un volumen aproximado de quinientos terabytes. La tercera, que el acceso acelerado se habría planteado como un servicio de pago, con importes por encima de los diez mil dólares y menciones a cantidades de decenas de miles para ese tipo de acceso.

De dónde viene este caso

La demanda no nace hoy. La acción original se presentó en enero de 2024 y acusa a NVIDIA de usar obras con copyright sin permiso para entrenar modelos internos, reclamando compensación. En esa fase inicial ya se citaba el conjunto de datos Books3, que ha aparecido en otras disputas sobre IA y que, según los demandantes, incluye libros obtenidos de una fuente pirata. La versión enmendada amplía el alcance con más obras, más autores y más modelos.

Geeknetic NVIDIA bajo la lupa por el entrenamiento de su IA: una demanda señala contactos con Anna’s Archive y el uso de libros pirateados 1

Por qué Anna’s Archive cambia el debate

En los litigios sobre IA se repiten dos narrativas. La de muchas tecnológicas, que defienden que un modelo aprende patrones estadísticos y produce resultados transformadores. Y la de autores y editoriales, que recuerdan que sin licencia no hay permiso.

Anna’s Archive añade una tercera capa: la diligencia. No es un repositorio neutral ni una biblioteca pública, sino un proyecto asociado a bibliotecas en la sombra. Si un tribunal considera verosímil que una empresa negoció acceso rápido sabiendo que el origen era ilícito, el foco se desplaza desde la teoría del uso legítimo a la intención y al criterio interno con el que se tomaron decisiones.  

Qué se juega NVIDIA y qué se juega el sector

Para NVIDIA, el primer impacto es reputacional. La empresa está en el centro del boom de la IA, y una historia que asocie entrenamiento y piratería alimenta la desconfianza y anima a otros demandantes.

Además, la demanda enmendada no se limita a Anna’s Archive. También menciona otras bibliotecas en la sombra como LibGen, Sci Hub y Z Library. Y añade una acusación especialmente sensible: que NVIDIA habría distribuido scripts o herramientas que facilitarían a clientes corporativos la descarga de conjuntos de datos como The Pile, citado a menudo en estas discusiones. Ahí el debate ya no es solo si se usó material protegido, sino si se habría contribuido a que terceros lo usaran.

Para el sector, el golpe va a la trazabilidad. Muchos datasets se construyen mezclando fuentes, limpiando y deduplicando. Si los tribunales empiezan a exigir claridad sobre qué entra, de dónde sale y bajo qué condiciones, el incentivo cambia: acuerdos de licencia, colecciones de dominio público y auditorías de datos dejan de ser un extra y pasan a ser un seguro.

Lo que aún no se puede dar por hecho

Conviene mantener el freno puesto. Que algo aparezca en un escrito judicial no lo convierte en hecho probado. La interpretación final dependerá de las pruebas y del criterio del tribunal. También hay una incógnita que lo cambia todo: si la negociación se tradujo en una transferencia real de datos o se quedó en conversaciones. Con esa pregunta todavía abierta, el caso seguirá moviéndose entre lo que se alega y lo que se logra acreditar.

Aunque el desenlace tarde, la lección es clara: entrenar IA es cada vez más una discusión sobre procedencia. De dónde sale lo que aprende el modelo, quién lo autorizó y qué controles reales existen. Si esta demanda prospera, no solo afecta a NVIDIA. Empuja a toda la industria hacia un escenario más incómodo, pero también más estable: menos atajos y más contratos, menos fe y más auditoría.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!

Temas Relacionados: Tarjetas Gráficas NVIDIA
Redactor del Artículo: Manuel Naranjo

Manuel Naranjo

Ingeniero informático y Técnico Superior en Topografía, que dejó las obras por su pasión: la tecnología. Desde hace ya varios años me dedico a lo que me gusta, con eso lo digo todo. Mi filosofía es el trabajo y la ilusión, no conozco otra forma de conseguir las cosas. El motor (sobre todo la F1) y el basket, mis vicios confesables.

Comentarios y opiniones sobre: NVIDIA bajo la lupa por el entrenamiento de su IA: una demanda señala contactos con Anna’s Archive y el uso de libros pirateados ¿Qué opinas? ¿Alguna pregunta?
NitroV16AI Banner